Wiederholung: Voraussetzungen für IRT

Eindimmensionalität: Die Lösungswahrscheinlichkeit eines Items wird lediglich durch \(\theta_p\) beeinflusst (und die Itemparameter), wobei die Dimension von \(\theta_p\) gleich eins ist. Das Item misst also nur ein Konstrukt.

Lokal stochastische Unabhängigkeit: Nach Kontrolle für die Personenfähigkeit korrelieren die Items nicht mehr. Der einzige Grund dafür, dass die Items zusammenhängen, ist also, dass die Antwort von diesem Konstrukt beeinflusst wird. Durch die Kontrolle für die Personenfähigkeit halten wir also den Fähigkeitswert konstant (alle Personen haben die gleiche Fähigkeit).
Ein Modell mit lokaler Abhängigkeit hat wichtige Kovarianz zwischen den Items nicht entdeckt.

Übrigens

Items können mehrdimensional aber trotzdem lokal unabhängig sein, wenn alle Items die gleichen Dimensionen messen. Andersherum sind Items immer lokal unabängig, wenn sie eindimensional sind.

Das Problem

Funktionieren die Items in verschiedenen Gruppen (z.B. Geschlecht, Kultur, Fähigkeit …) auf dieselbe Art und Weise? Gibt es also echte Mittelwertsunterschiede zwischen beiden Gruppen, oder sind die Unterschiede auf besondere Interaktionen zwischen Items und Gruppen zurückzuführen?

Beispiel

Welche Unterarten von Rugby gibt es laut Text?


Differential Item Functioning

  • DIF: Item Characteristic Curves (also mind. einer der Paramter im IRT Modell) unterscheiden sich in verschiedenen Subgruppen.
  • Grund: Item ist nicht eindimensional.
  • DIF-Untersuchung ist damit auch eine Untersuchung der Testvalidität!

Mögliche Fähigkeitsunterschiede zwischen den Gruppen auf dem gemessenen Konstrukt interessieren uns hier nicht. Die rechnen wir gleich in Kapitel 22 raus.

Schwierigkeit

Diskriminationsparameter

Wie ghen wir damit um?

Wir schauen uns die Itemparameter in der Reference group und in der Focal group an.


Naive Lösung: Einfach die verschiedenen Subgruppen einzeln kalibrieren und dann die ICRs/Itemparameter anschauen.


Warum funktioniert das so nicht?

Warum funktioniert das nicht?

Werte aus verschiedenen Kalibrierungen können nicht ohne weiteres vergleichen werden, da die Skalen arbiträr festgelegt werden.
 

Wir müssen also vorher linken!

Wiederholung: Kalibrierung

Die kalibrierten Itemparameter und Personenfähigkeiten gelten erst einmal nur für diese bestimmte Kombintation aus Items und Personen.

WARUM?

Wiederholung: Kalibrierung

  • Skala der Latenten Variable wird arbiträr festgelegt (meist auf einen Mittelwert von 0 und eine SD von 1).
  • Modell ist sonst nicht idenfiziert.
  • Itemparameter aus versch. Kalibrierungen dadurch nicht auf der selben Skala.
  • Sie können also nicht direkt miteinander verglichen werden.

Problem

Das Problem

Invarianz-Eigenschaft von IRT: Itemparameter sind gleich über verschiedene Gruppen. Die Wahrscheinlichkeit für eine korrekte Antwort auf ein Item hängt also nur von \(\theta\) ab. Nicht von anderen Personen in der Stichprobe.

Die Lösung

Wir müssen die Werte, die wir aus diesen unterschiedlichen Kalibrierungen bekommen, irgendwie in einen Zusammenhang setzen.

Beispiel

Wenn wir eine sehr leistungsstarke Stichprobe haben, und eine sehr leistungsschwache, dann wird nach der Kalibrierung trotzdem bei beiden der Mittelwert der Latenten Variable 0 und die SD 1 sein. Mittelschwere Items werden aber in der schwachen Gruppe eher positive Schwierigkeiten haben, in der starken Gruppe eher negative.

Beispiel

Group 1: \(\theta \sim N(0,1)\)
Group 2: \(\theta \sim N(1, 1.4)\)

 

Für die Kalibrierung legen wir jetzt aber fest, dass gilt: Gruppe 1: \(\hat{\theta} \sim N(0,1)\)
Gruppe 2: \(\hat{\theta} \sim N(0,1)\)

Die Bedeutung des Skalenursprungs (0) unterscheidet sich, dadurch unterscheiden sich auch die Itemparameter.

Illustration

Wir nehmen an, dass die gleiche Person in Gruppe 1 und in Gruppe 2 getestet wird. Gruppe 2 ist dabei insgesamt stärker als Gruppe 1.

Mit der gleichen Fähigkeit würde sie in Gruppe 2 einen niedrigeren Fähigkeitswert zugewiesen bekommen, da diese Gruppe einfach besser ist als Gruppe 1.

Illustration 2

Das gleiche Item wird in Gruppe 2 als leichter geschätzt als in Gruppe 1, einfach weil die Lösungswahrscheinlichkeit in Gruppe 2 insgesamt höher ist.

Schwierigkeit

Diskriminationsparameter

Schlusfolgerung

Wir brauchen also einen Referenzrahmen um unsere Testergebnisse interpretieren zu können.

Lösung: Linking

Linking: Anwendungsbereiche

Immer, wenn wir Werte aus verschiedenen Kalibrierungen miteinander vergleichen wollen:

  • DIF
  • Tests, die in verschiedenen Jahren bearbeitet wurden
  • Adaptives Testen

Ganz egal welcher Anwendungsfall, das Szenario ist das gleiche: Wir haben verschiedene Testformen, und wollen die Scores auf eine gemeinsame Skala bringen. - Dafür haben wir zwei Möglichkeiten: - Gemeinsame Items - Gemeinsame Personen

Übung

Gehe zur ersten Übung zum Thema Linking/DIF. Es geht hier nochmal um Datenaufbereitung.

Gemeinsame Personen

Personen bearbeiten beide Tests. Personenfähigkeit wird basierend auf einem Referenztest geschätzt, und dann fixiert und konstant gehalten, wenn andere Testformen bearbeitet werden. Die Fähigkeitswerte werden dann genutzt, um Itemparameter auf beiden Testformen zu schätzen.

Ankeritems

Ankeritems sind gemeinsame Items, die in beiden Testformen vorhanden sind. Hauptproblem bei der Auswahl: Sie sollten in beiden Gruppen nicht unterschiedlich funktionieren, es sollte also kein Differential Item Functioning (DIF) geben.

Linking Verfahren: Grundidee

Die \(\theta\) scores der Focal group müssen so transformiert werden, dass sie auf einer gemeinsamen Skala mit den Scores der Reference group liegen:

\[ \theta_R = A \theta_F + B \]

Ziel: “Linking constants” \(A\) und \(B\) zu finden, welche die Itemparameter aus den beiden Gruppen auf der selben Skala plazieren.

Linking Methoden

  • Die häufigsten Methoden:
    • mean-mean ()
    • mean-sigma ()
    • Stocking-Lord ()
    • Haebermann ()

mean-sigma Transformationen

Grundlegend sind einige einfache Transformationen:

  • \(\theta^* = x\theta+y\)
  • \(\beta^* = x\beta=y\)
  • \(\alpha^*=\frac{\alpha}{x}\)
  • \(c^* = c\)

Ziel ist es, die Linkingkonstanten \(x\) und \(y\) zu finden.

Finden der Linkingkonstanten

  • \(\overline{\beta}_R\) und \(\overline{\beta}_F\) als Mittelwert der geschätzten Itemschwierigkeiten in Referenz- und Fokusgruppe
  • \(\sigma_R\) und \(\sigma_F\) als Standardabweichung der geschätzten Itemschwierigkeiten in Referenz- und Fokusgruppe.

Finden der Linkingkonstanten

\[ x = \frac{\sigma_R}{\sigma_F} \]

Mean-mean Linking

Die mean-mean Methode nutzt hier statt der Standardabweichung der Itemschwierigkeiten die Mittelwerte (Erwartungswerte) der Diskriminationsparamter. In der Praxis werden beide Methoden eher weniger genutzt.

\[ y = \overline{\beta}_R - x(\overline{\beta}_F) \]

Und dann einsetzen in \[ \theta* = x\theta+y \] \[ B_F^* = x\beta_F + y \]

mean-sigma

Probleme: linking constants können stark von Outliern beeinflusst werden, und von den differential standards errors of the item difficutly estimates Es gibt aber auch Robuste Verfahren.

Alternative: Characteristic curve methods

Characteristic curve methods

Versuch, die Linking constants so zu berechnen, dass die test charactersitic curves so ähnlich wie möglich sind. Nutzen daher alle Itemparameter um die Linkingkonstanten zu finden. Ist rechnerisch aufwändiger.

  • Haebara-Linking
  • Stocking-Lord

Stocking-Lord

\[ \sum_{\theta}\left[\sum_j P(Y_i = 1|\theta, a_{R_i}, b_{R_i}, c_{R_i}) - \sum_j P(Y_i=1|\theta,\frac{a_{F_i}}{x}, xb_{F_i}+y, c_{F_i})\right]^2 \]

  • i: Item

Stocking-Lord

\[ \sum_{\theta}\left[\color{#9B1B34}{\sum_i P(Y_i = 1|\theta, \alpha_{R_i}, \beta_{R_i}, c_{R_i})} - \sum_i P(Y_i=1|\theta,\frac{\alpha_{F_i}}{x}, x\beta_{F_i}+y, c_{F_i})\right]^2 \] - Summe der Test Characteristic Curves über alle Items.

Stocking-Lord

\[ \sum_{\theta}\left[\sum_i P(Y_i = 1|\theta, \alpha_{R_i}, \beta_{R_i}, c_{R_i}) - \sum_i P(Y_i=1|\theta,\color{#9B1B34}{\frac{\alpha_{F_i}}{x}, x\beta_{F_i}+y, c_{F_i}})\right]^2 \]

Haebara

\[ \sum_{\theta}\color{#9B1B34}{\sum_i}\left[P(Y_i = 1|\theta, \alpha_{R_i}, \beta_{R_i}, c_{R_i}) - P(Y_i=1|\theta,\frac{\alpha_{F_i}}{x}, x\beta_{F_i}+y, c_{F_i})\right]^2 \] Sehr ähnlich, nur dass wir hier die Item Characteristic Curves verwenden.

Haebara und Stocking-Lord

In beiden Fällen wird die Gleichung so optimiert, dass die Linkingkonstanten \(x\) und \(y\) so bestimmt werden, dass der Unterschied zwischen den Test/Item Characteristic Curves der Referenz- und Fokusgruppe minimiert wird.

Übung

Löse die Übungsaufgaben zum Linking.

DIF finden

Viele verschiedene Verfahren, meist wird folgende Frage untersucht: Wurden Items in bestimmten Gruppen häufiger beantwortet wurden als in anderen Gruppen, bzw. wurden die Itemparamter in bestimmten Gruppen anders geschätzt (nachdem gelinkt wurde)?

Es werden also entweder die beobacheteten Testscores oder die latenten Fähigkeitswert zur Berechnung genutzt.

Ansätze

Observed Score Ansätze

Z.B. der bekannte Mantel-Haenszel Test. Nutzen Kontingenztabellen, um zu schauen, ob sich die Antwortmusster der einzelenen Items in den verschiedenen Gruppen unterscheiden.

Likelihood Ratio Test

Vergleich von Modellen mit zwischen Gruppen fixierten Parametern eines Items, und Modellen mit frei geschätzten Parametern.

Ansätze

Logistische Regression

Logistische Regression Interaktionsterm zwischen Gruppenzugehörigkeit und Itemschwierigkeit/Personenfähigkeit gibt.

Lord’s Chi Quadrat Test/Wald Test

IRT Ansatz, Vergleich von Itemparametern zwischen den Gruppen.

Raschtrees

Gruppensplitting, kann auch diverse Interaktionen zwischen Variablen einfach untersuchen.

Regularisierung

Iteratives Vorgehen

Oft werden die Methoden iterativ angewandt, da beim anfänglichen Matchen der Gruppen ja auch eventuell DIF-Items für die Berechnung der Scores verwendet werden.

Welche denn jetzt?

Abhängig vom Modell, der Fragestellung und den Daten.

Für kleine Datensätze eventuell eher Verfahren wählen die auf beobachtete Scores zurückgreifen (nicht auf geschätzte Trait-Variablen).

Sehr große Datensätze mit vielen Kovariaten (und damit auch vielen verschiedenen Gruppen und Gruppen-Interaktionen) könnten von Machine-Learning profitieren, z.B. Rasch-Trees.

Ansonste Simulation von Daten und ausprobieren.

Generell ist es keine gute Idee, einfach nach p-Werten zu gehen, um Items dann blind auszuschließen. Stattdessen sollten die Itemschwierigkeitsunterschiede zwischen den Gruppen beurteilt, und auch das Item selbst inhaltlich untersucht werden.

https://cran.r-project.org/web/packages/difR/difR.pdf

Übung

Bitte bearbeite die DIF-Übung.

Literatur

Berrı́o, Á. I., Gomez-Benito, J., & Arias-Patiño, E. M. (2020). Developments and trends in research on methods of detecting differential item functioning. Educational Research Review, 31, 100340.

Bildquellen